昨天介紹了企業運用推薦系統服務的關鍵與機器學習的秘密,今天來看機器學習模型的偏差。
講師介紹到機器學習的偏差Bias,產生偏差的原因有時可能是訓練資料本身,又或著是其他的原因,課堂中提到,以一般我們寫程式來說,我們把問題的解決方案寫進代碼中,人工寫的可能會有偏差,而如果是機器學習的話,機器學習會透過尋找資料的模式與規則來學習,所以大部分的人認為他是沒有偏差的,然而數據是中立的,它沒有完全正確或是完全錯誤,我們餵給他什麼資料他就會學什麼,所以會產生偏差也是正常的,而學習完這塊之後雖然沒有到很懂,不過我大概能夠了解課程中講的所謂偏差的來源是什麼,平常比較常聽到的是模型的誤差和準確率,不管是線性還是分類模型,機器也是會出現誤差算錯的時候
了解這些錯誤的樣貌是很重要的,所以講者用這張混淆矩陣帶我們了解標籤資料和模型這兩個預測值與實際值之間的關係圖,基本上TP和TN比較沒有爭議性,模型預測的結果與真實值結果是同樣,而FP就代表模型預測是反向結果而真實值是正向結果,FN代表模型預測是正向結果而真實值是反向結果,會發生型1錯誤和型2錯誤這兩種結果,也就反映了預測模型當中會出現的誤差。
今天先介紹到這,明天繼續深入探討機器學習模型的偏差。